بازشناسی احساس از روی گفتار پیوسته فارسی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
- author مینا حمیدی
- adviser محرم منصوری زاده هومان نیک مهر
- publication year 1391
abstract
در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چنین به آن پرداخته نشده است. برای ارزیابی عملکرد سیستم طراحی شده، نیاز به پایگاه داده مناسبی داشتیم. به علت نبود پایگاه داده مناسب اقدام به ساخت و تهیه پایگاه داده صوتی احساسی نموده و آن را basu speech database نام نهادیم. این پایگاه داده از صدای ضبط شده بازیگران در سریال ها و فیلم های تلوزیونی و نمایشنامه های رادیویی ساخته شده است. هدف طبیعی بودن و جامع بودن گفتار موجود در پایگاه داده بود که به همین خاطر در این پایگاه از گفتار زن و مرد و در رده های مختلف سنی استفاده شده است. در این مدل ابتدا ویژگی های مورد نیاز گفتار را استخراج کرده و با استفاده از سه طبقه بند شبکه عصبی، svm و بیز به بازشناسی احساس از گفتار پرداخته شده و نتایج به دست آمده مقایسه و تحلیل شده است. در این پایان نامه سه آزمایش متفاوت ترتیب داده شده است. آزمایش اول و دوم به بازشناسی احساس تنها یک فرد پرداخته، با این تفاوت که در آزمایش اول هر احساس به صورت جدا بررسی شده اما در آزمایش دوم هر پنج احساس مورد نظر مورد بررسی قرار گرفته شده است. اما آزمایش سوم بر روی کل پایگاه داده تهیه شده، انجام گرفته است. بر اساس نتایج به دست آمده، بازشناسی احساس از گفتار برای یک شخص خاص نتایج بهتری از خود نشان خواهد داد، علاوه بر این هر چه تعداد احساس مورد بررسی بیشتر شود، احتمال نزدیک شدن آنها به هم و پایین آمدن دقت بیشتر خواهد شد. در آزمایشات انجام شده طبقه بند بیز دقت بالاتری برای بازشناسی احساس از گفتار بدست آورده است. با مقایسه نتایج بدست آمده در این تحقیق با کارهای دیگری که در این زمینه انجام شده اند، دقت به دست آمده در آزمایشات انجام شده در این پایان نامه که به صورت میانگین برای سه طبقه بند شبکه عصبی، svm و بیز به ترتیب،6.69%، 4.71% و 78% می باشد، نتایج قابل قبولی خواهند بود.
similar resources
بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی
گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیا...
15 صفحه اولرتبهبندی واجهای گفتار فارسی از نظر کارآیی در بازشناسی گوینده
در این مقاله، کارآیی واجهای گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآییها، رتبهبندی واجها صورت گرفتهاند. جهت برآورد کارآیی واجها، از یک معیاری که بهصورت نسب « فاصلة بینگویندهای» واجها به « فاصلة در گویندهای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیدهایم، استفاده شده است. آزمایشها و محاسبات لازم برای کلیه واجهای گفتار...
full textبررسی تاثیر سرعت گفتار روی زمان شروع واک (وی اُتی) همخوان های انسدادی فارسی معیار در گفتار پیوسته
مطالعۀ حاضر به بررسی تأثیر سرعت گفتار روی زمان شروع واک (ویاُتی) همخوانهای انسدادی واکدار /b, d, ɟ/ و بیواک /p,t,c/ زبان فارسی معیار میپردازد. به این منظور، طی آزمون تولیدی تعداد 8 جمله حاوی کلمات آزمایش، هر کدام 3 مرتبه توسط 24 شرکت کننده (17 شرکت کنندۀ مؤنث و 7 شرکت کنندۀ مذکر) در سرعتهای متفاوت تولید شدند. مقادیر ویاُتی برای همخوانهای انسدادی واکدار و بیواک به تفکیک موقعیت در واژه (...
full textپایهگذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی
Although researches in the field of Persian speech recognition claim a thirty-year-old history in Iran which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database ...
full textمدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی
مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...
full textمعرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023